Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Analyse de classes de formes pour la transcription de textes imprimés anciens

Identifieur interne : 000128 ( France/Analysis ); précédent : 000127; suivant : 000129

Analyse de classes de formes pour la transcription de textes imprimés anciens

Auteurs : S. Hocquet [France] ; Jean-Yves Ramel [France]

Source :

RBID : Hal:hal-00492179

Abstract

Ce travail se situe dans le contexte de la numérisation et de l'indexation de documents imprimés anciens. Il décrit un logiciel intitulé Retro, permettant de transcrire semi automatiquement les zones de texte préalablement localisées et extraites à l'aide d'un autre logiciel nommé Agora. Agora réalise simultanément l'analyse de structure des pages et une extraction de toutes les composantes connexes présentes dans chaque page. Une classification non-supervisée de ces composantes connexes est effectuée et conduit à la création de classes regroupant des composantes semblables. Nous proposons dans cet article une étude, puis une exploitation des classes issues d'Agora pour obtenir une transcription du texte (OCR). Nous présentons une analyse statistique et qualitative des classes produites, avant de proposer une méthode de fusion des classes basées sur l'étude de leur relation de voisinage qui nous permet d'étiqueter rapidement 60% des caractères d'un ouvrage sans utiliser de méthode couteuse en temps de calcul.

Url:


Affiliations:


Links toward previous steps (curation, corpus...)


Links to Exploration step

Hal:hal-00492179

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Analyse de classes de formes pour la transcription de textes imprimés anciens</title>
<author>
<name sortKey="Hocquet, S" sort="Hocquet, S" uniqKey="Hocquet S" first="S." last="Hocquet">S. Hocquet</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-204893" status="VALID">
<orgName>Laboratoire d'Informatique de l'Université de Tours</orgName>
<orgName type="acronym">LI</orgName>
<desc>
<address>
<addrLine>64, Avenue Jean Portalis, 37200 Tours</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.li.univ-tours.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-300408" type="direct"></relation>
<relation name="EA6300" active="#struct-300298" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300408" type="direct">
<org type="institution" xml:id="struct-300408" status="VALID">
<orgName>Polytech'Tours</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA6300" active="#struct-300298" type="direct">
<org type="institution" xml:id="struct-300298" status="VALID">
<orgName>Université François Rabelais - Tours</orgName>
<desc>
<address>
<addrLine>60 rue du Plat d'Étain, 37020 Tours cedex 1 </addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-tours.fr</ref>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Tours</settlement>
<region type="old region" nuts="2">Région Centre</region>
<region type="region" nuts="2">Centre-Val de Loire</region>
</placeName>
<orgName type="university">Université François-Rabelais de Tours</orgName>
<orgName type="institution" wicri:auto="newGroup">Centre Val de Loire Université</orgName>
</affiliation>
</author>
<author>
<name sortKey="Ramel, Jean Yves" sort="Ramel, Jean Yves" uniqKey="Ramel J" first="Jean-Yves" last="Ramel">Jean-Yves Ramel</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-204893" status="VALID">
<orgName>Laboratoire d'Informatique de l'Université de Tours</orgName>
<orgName type="acronym">LI</orgName>
<desc>
<address>
<addrLine>64, Avenue Jean Portalis, 37200 Tours</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.li.univ-tours.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-300408" type="direct"></relation>
<relation name="EA6300" active="#struct-300298" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300408" type="direct">
<org type="institution" xml:id="struct-300408" status="VALID">
<orgName>Polytech'Tours</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA6300" active="#struct-300298" type="direct">
<org type="institution" xml:id="struct-300298" status="VALID">
<orgName>Université François Rabelais - Tours</orgName>
<desc>
<address>
<addrLine>60 rue du Plat d'Étain, 37020 Tours cedex 1 </addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-tours.fr</ref>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Tours</settlement>
<region type="old region" nuts="2">Région Centre</region>
<region type="region" nuts="2">Centre-Val de Loire</region>
</placeName>
<orgName type="university">Université François-Rabelais de Tours</orgName>
<orgName type="institution" wicri:auto="newGroup">Centre Val de Loire Université</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-00492179</idno>
<idno type="halId">hal-00492179</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-00492179</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-00492179</idno>
<date when="2010-03-18">2010-03-18</date>
<idno type="wicri:Area/Hal/Corpus">000139</idno>
<idno type="wicri:Area/Hal/Curation">000139</idno>
<idno type="wicri:Area/Hal/Checkpoint">000104</idno>
<idno type="wicri:Area/Main/Merge">000595</idno>
<idno type="wicri:Area/Main/Curation">000589</idno>
<idno type="wicri:Area/Main/Exploration">000589</idno>
<idno type="wicri:Area/France/Extraction">000128</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr">Analyse de classes de formes pour la transcription de textes imprimés anciens</title>
<author>
<name sortKey="Hocquet, S" sort="Hocquet, S" uniqKey="Hocquet S" first="S." last="Hocquet">S. Hocquet</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-204893" status="VALID">
<orgName>Laboratoire d'Informatique de l'Université de Tours</orgName>
<orgName type="acronym">LI</orgName>
<desc>
<address>
<addrLine>64, Avenue Jean Portalis, 37200 Tours</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.li.univ-tours.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-300408" type="direct"></relation>
<relation name="EA6300" active="#struct-300298" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300408" type="direct">
<org type="institution" xml:id="struct-300408" status="VALID">
<orgName>Polytech'Tours</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA6300" active="#struct-300298" type="direct">
<org type="institution" xml:id="struct-300298" status="VALID">
<orgName>Université François Rabelais - Tours</orgName>
<desc>
<address>
<addrLine>60 rue du Plat d'Étain, 37020 Tours cedex 1 </addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-tours.fr</ref>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Tours</settlement>
<region type="old region" nuts="2">Région Centre</region>
<region type="region" nuts="2">Centre-Val de Loire</region>
</placeName>
<orgName type="university">Université François-Rabelais de Tours</orgName>
<orgName type="institution" wicri:auto="newGroup">Centre Val de Loire Université</orgName>
</affiliation>
</author>
<author>
<name sortKey="Ramel, Jean Yves" sort="Ramel, Jean Yves" uniqKey="Ramel J" first="Jean-Yves" last="Ramel">Jean-Yves Ramel</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-204893" status="VALID">
<orgName>Laboratoire d'Informatique de l'Université de Tours</orgName>
<orgName type="acronym">LI</orgName>
<desc>
<address>
<addrLine>64, Avenue Jean Portalis, 37200 Tours</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.li.univ-tours.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-300408" type="direct"></relation>
<relation name="EA6300" active="#struct-300298" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-300408" type="direct">
<org type="institution" xml:id="struct-300408" status="VALID">
<orgName>Polytech'Tours</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle name="EA6300" active="#struct-300298" type="direct">
<org type="institution" xml:id="struct-300298" status="VALID">
<orgName>Université François Rabelais - Tours</orgName>
<desc>
<address>
<addrLine>60 rue du Plat d'Étain, 37020 Tours cedex 1 </addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-tours.fr</ref>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Tours</settlement>
<region type="old region" nuts="2">Région Centre</region>
<region type="region" nuts="2">Centre-Val de Loire</region>
</placeName>
<orgName type="university">Université François-Rabelais de Tours</orgName>
<orgName type="institution" wicri:auto="newGroup">Centre Val de Loire Université</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Ce travail se situe dans le contexte de la numérisation et de l'indexation de documents imprimés anciens. Il décrit un logiciel intitulé Retro, permettant de transcrire semi automatiquement les zones de texte préalablement localisées et extraites à l'aide d'un autre logiciel nommé Agora. Agora réalise simultanément l'analyse de structure des pages et une extraction de toutes les composantes connexes présentes dans chaque page. Une classification non-supervisée de ces composantes connexes est effectuée et conduit à la création de classes regroupant des composantes semblables. Nous proposons dans cet article une étude, puis une exploitation des classes issues d'Agora pour obtenir une transcription du texte (OCR). Nous présentons une analyse statistique et qualitative des classes produites, avant de proposer une méthode de fusion des classes basées sur l'étude de leur relation de voisinage qui nous permet d'étiqueter rapidement 60% des caractères d'un ouvrage sans utiliser de méthode couteuse en temps de calcul.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Centre-Val de Loire</li>
<li>Région Centre</li>
</region>
<settlement>
<li>Tours</li>
</settlement>
<orgName>
<li>Centre Val de Loire Université</li>
<li>Université François-Rabelais de Tours</li>
</orgName>
</list>
<tree>
<country name="France">
<region name="Région Centre">
<name sortKey="Hocquet, S" sort="Hocquet, S" uniqKey="Hocquet S" first="S." last="Hocquet">S. Hocquet</name>
</region>
<name sortKey="Ramel, Jean Yves" sort="Ramel, Jean Yves" uniqKey="Ramel J" first="Jean-Yves" last="Ramel">Jean-Yves Ramel</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/France/Analysis
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000128 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/France/Analysis/biblio.hfd -nk 000128 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    France
   |étape=   Analysis
   |type=    RBID
   |clé=     Hal:hal-00492179
   |texte=   Analyse de classes de formes pour la transcription de textes imprimés anciens
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024